已提出伦理陈述作为提高透明度的机制,促进对公布研究的社会影响的思考。在2020年,通过要求所有文件包括更广泛的影响声明,机器学习(ML)会议神经潜水区破坏了新的地面。在2021年删除了这一要求,支持核对清单方法。因此,2020年陈述提供了从更广泛的影响实验中学习的独特机会:调查这种和类似治理机制的益处和挑战,并熟悉ML研究人员如何考虑自己工作的社会影响。这种学习是必要的,因为神经潮支和其他场地继续质疑并调整他们的政策。要启用此功能,我们已创建包含来自所有Neurips 2020文件的影响语句的数据集以及附加信息,如附属类型,位置和主题区域,以及用于探索的简单可视化工具。我们还提供了对数据集的初始定量分析,涵盖了代表性,参与,共同主题和愿意与福利讨论潜在危害的愿意。我们调查这些如何因地理,附属类型和主题领域而异。借鉴这些调查结果,我们讨论了道德声明要求的潜在利益和负面结果,以及他们可能的原因和相关挑战。这些导致我们从2020年要求中学到的几课:(i)创造正确的激励措施的重要性(ii)需要明确的预期和指导,以及(iii)透明度和建设性审议的重要性。我们鼓励其他研究人员使用我们的数据集来提供额外的分析,以进一步了解研究人员如何应对这一要求的理解,并调查这一要求和相关机制的益处和挑战。
translated by 谷歌翻译
大型预先训练的语言模型已经显示了几次拍摄学习的承诺,只提供了几个任务特定示例给出了基于文本的任务。款式将很快解决到目前为止为人类研究助理保留的分类任务吗?现有的基准标记不设计用于衡量应用设置的进度,因此不要直接回答这个问题。 RAFT基准(现实世界注释的少量拍摄任务)侧重于自然发生的任务,并使用镜像部署的评估设置。 RAFT的基线评估揭示了当前技术斗争的地区:推理在许多班级的长篇文章和任务上。人类基线表明,非专家人类难以反映出一些分类任务,反映了现实世界的价值有时依赖于域名专业知识。甚至非专业人类基线F1分数超过GPT-3平均为0.11。 RAFT DataSets和排行榜将跟踪哪些模型改进在https://raft.elict.org中转化为现实世界的优势。
translated by 谷歌翻译